数据爬取
-
支持爬取任意分类的商品评论, 在启动时传入参数: 如
scrapy crawl goods -a category=qipaoshui(气泡水) -
支持爬取文章数量上限, 默认: 30
-
评论内容里, 保留表情和顺序
- 网页上评论内容里, 出现敏感词语已被马赛克替代, 此时保留源内容, 用
[MOSAIC]替代
- 评论内容里, 有回复别人的评论的情景, 而且可能有多条, 超过3条页面上会隐藏, 而获取所有的记录需要发请求, 因此这里不记录每条评论下所有引用的评论(如果有的话), 而是记录最后一条引用的评论(可还原为完整的回复链)
- 本项目展示的数据是基于评论的, 并且要求存储的数据不应出现缺失值, 所以 0 条评论的商品, 只在
article表里有数据, 而在comment表里是没有数据的, 因此在最终的展示数据是不包含没有评论的商品